智能论文笔记

Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations

Fangyu Liu , Yunlong Jiao , Jordan Massiah , Emine Yilmaz , Serhii Havrylov

分类：自然语言处理 | 人工智能 | 机器学习

2021-09-27

在NLP中，大量的任务涉及两种序列之间的成对比较（例如句子相似性和解释识别）。主要是，两种配方用于句子 - 对任务：双编码器和交叉编码器。双编码器产生固定尺寸句子表示，并且在计算上有效，但是，它们通常是跨编码器的表现不佳。交叉编码器可以利用他们的注意力头来利用句子间交互以获得更好的性能，但它们需要任务微调，并且计算更昂贵。在本文中，我们提出了一个完全无监督的句子表示模型被称为跨编码器，它将两个学习范例结合到迭代联合框架中，以同时学习增强的双和交叉编码器。具体而言，在预先接受训练的语言模型（PLM）的顶部，我们首先将其转换为无监督的双编码器，然后在双编码器任务配方之间交替。在每次交替中，一个任务制定将产生伪标签，该伪标签用作其他任务制定的学习信号。然后，我们提出了一种平行于多个PLMS在多个PLM上进行这种自蒸馏方法的延伸，并使用其伪标签的平均值进行互蒸馏。 Trans-encoder据我们所知，创建了第一个完全无监督的跨编码器以及用于句子相似性的最先进的无人监督的双编码器。跨编码器的双编码器和交叉编码器配方均最近提出了最先进的无监督句子编码器，例如镜像相似基准在句子相似基准上最多5％的镜像 - BERT和SIMCSE。

translated by 谷歌翻译